Actualizaciones de objetivo duro promediadas geométricamente para Q-learning lineal Descubre cómo el promedio geométrico de actualizaciones de objetivo duro estabiliza el Q-learning lineal. Un nuevo enfoque para mejorar el aprendizaje por refuerzo. 2026-06-10 · 2 min